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Исследование несоответствия шкальт акустической 
и лингвистической моделей распознавания 
слитой украийнской речи 


У статті описується розробка експериментальної системи перетворення мовленнєвого сигналу на текст, 
що складається як зі слів, так і з субслівних елементів. Велику увагу приділено вибору навчальної 
вибірки для оцінки параметрів акустичної моделі розпізнавання. Зокрема розглядалися такі варіанти: 
модель, побудована лише на злитому мовленні; модель, що об'єднує злите мовлення та ізольовані слова; 
модель, що не враховує наголошеність голосних; та модель, що враховує наголошеність лише голосних 
«и» та «е». Проводиться оцінка параметрів акустичної моделі на основі однодикторного мовленнєвого 
корпусу. Вибираються коефіцієнти, які компенсують невідповідності шкали акустичної та лінгвістичної 
складової моделі розпізнавання. Наводяться результати експериментальних досліджень. 

Ключові слова: під-слово, склад, розпізнавання мовлення, навчальна і контрольна вибірки, 
злите мовлення, ізольовані слова. 
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В статье описьваєтся разработка зкспериментальной системьт преобразования речевого сигнала в текст, 
которьгй состоит как из слов, так и из субсловньїхх злементов. Большое внимание уделено вьіору обучающей 
вьборки для оценки параметров акустической модели распознавания. В частности рассматривались такие 
вариантьт: акустическая модель, построенная только на слитной речи; модель, обьединяющая слитую 
речь и изолированнье слова; модель, не учитьтвающая ударность гласньх; и модель, учитьтвающая 
ударность только гласньтх «ьї» и «е». Проводится оценка параметров акустической модели на основе 
однодикторного речевого корпуса. Вьтбираются козффициенть, компенсирующие несоответствия шкальт 
акустической и лингвистической составляющей модели распознавания. Приводятся результатьт зкспери- 
ментальньх исследований. 

Ключевьге слова: под-слова, слог, распознавание речи, обучающая и контрольная вьгтборки, 
слитная речь, изолированнье слова. 


Вступ 


Системи пофонемного розпізнавання зазвичай оперують алфавітом фонем (кон- 
текстно залежних або контекстно незалежних), з яких складаються мовленнєві образи 
слів. Потім на слова накладаються обмеження їх слідування шляхом побудови лінгвіс- 
тичної моделі (ЛМ) або граматик. При збагаченні лексики зростають обсяги робочого 
словника, суттєво ускладнюються граматика або ЛМ, а це призводить до зменшення 
продуктивності системи розпізнавання. 

Якщо використовувати замість слів мовленнєві образи складів або морфем, то 
збагачення лексики не призведе до помітного зростання робочих словників та усклад- 
нення граматики чи ЛМ. При цьому постає проблема переходу від послідовностей 
складів (морфем) до послідовностей слів, оскільки помилка розпізнавання складу або 
морфеми може спричиняти ситуацію, коли їх послідовностям не можливо безпосеред- 
ньо зіставити слово. 

У попередній роботі (1) досліджувалась надійність розпізнавання фонем 1 складів 
двох видів. Для проведення експериментальних досліджень використовувався одно- 
дикторний мовленнєвий корпус злитого мовлення. Велику увагу приділено створенню 
навчальної вибірки (НВ): вибору початкового текстового корпусу (ТК), алгоритму 
вибору текстів, оброблення «Жадібним» алгоритмом вибраних текстів, запису мовлен- 
нєвої НВ. Алфавіт корпусу НВ налічував близько 51 тис. фонем-трифонів у 18 тис. 
реченнях. Обсяг словника - 47,5 тис. слів. Загальна кількість реалізацій слів у цій НВ - 
184,9 тис. Отримано близько 36 годин запису акустичної бази навчальної вибірки. 
Також був описаний алгоритм вибору НВ для ізольованих слів. Розглядалися два 
словника: словник УМІФ та словник частотних слів. Обсяг словника НВ ізольованих 
слів склав - 13 тис. слів та після запису більш як 12 годин мовлення. 

Графіки частоти фонем-трифонів у різних джерелах (текстовий корпус, словник 
УМІФ та частотний словник) та отримані відповідні НВ наведені на рис 1. Тут можна 
побачити, що при роботі «Жадібного» алгоритму кількість елементів, що зустрілися 
один раз, збільшилися в декілька разів для кожної НВ. Також з рисунка випливає, що 
частота фонем-трифонів загалом відповідає розподілу Ципфа - Мандельброта як для 
вхідних корпусів, так і після роботи «Жадібного» алгоритму. 

Експерименти проводилися на різних контрольних вибірках (КВ). Перша КВ фор- 
мувалася за принципом частотності фонем-трифонів, що використовуються. «Частотна» 
КВ складалася з 3 тис. речень, обсяг словника мав 3 225 слів, загальна кількість реа- 
лізацій яких - 8 987 слів. Отримана КВ має 3,6 годин запису. Друга КВ вибиралася 
випадковим чином з тих самих текстів, з яких вибирався текст НВ. «Випадкова» КВ 
складалася з 2 тис. речень, обсяг словника мав 10 013 слів, загальна кількість реалі- 
зацій яких - 22 564 слів. Отримана КВ має 4,3 годин запису. Третя КВ була вибрана з 
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текстів, які не використовувалися для вибору НВ. Для цього із сайта української Вікі- 
педії |2)| випадковим чином вибраний зв'язний текст (1,2 тис. речень). Обсяг словника 
складав 7,3 тис. слів. Загальна кількість реалізацій слів - 16 тис. 


100000 
Початковий 
ТК 
10000 | о отюнв 
1000 нм о т Словник 
УМІФ 
--о-- Словник 
100 - УМІФ НВ 
ба РР З РУ ІІ. Частотний 
.Ж.Г ко М словник 
КУ м Частотний 
ДУ - словник НВ 
1 


18337 27712 51442 
0 


Рисунок 1 - Розподілення фонем-трифонів за частотністю в текстових вибірках 


Процедура розпізнавання проводилась за допомогою декодерів НТК |3| 1 /Пиз |4| 
на трьох КВ: частотній, випадковій та «Вікіпедія». Як елемент робочого словника бра- 
лися: фонеми (всього 59), відкриті склади (всього 7 270), склади, поділені за правилами 
складоподілу (всього 10 200) та цілі слова. 

Метою даної роботи є дослідження невідповідності акустичної та лінгвістичної 
компонент математичної моделі розпізнавання мовленнєвого сигналу з метою підви- 
щення надійності розпізнавання. 

В наступному розділі описується обгрунтування створення різних акустичних мо- 
делей. Потім приділяється увага вибору коефіцієнтів, які компенсують невідповідності 
шкали акустичної та лінгвістичної складової моделі розпізнавання. Проводяться експе- 
риментальні дослідження, наводяться та обговорюються результати досліджень. 


Побудова експериментальної системи 
перетворення мовлення на текст 


Проводилося оцінювання параметрів акустичних моделей з використанням прог- 
рамного інструментарію НТК та /шіиз. Акустичні моделі формувалися на основі кон- 
текстно незалежних фонем, оскільки їх алфавіт невеликий, а отже, для статистичних 
оцінок необхідна менша база акустичних сигналів, ніж для складів і фонем-трифонів, 
яких більше в тисячі разів, і топологія їх акустичних моделей вимагає додаткових 
досліджень. Порівняно з попередньою роботою, в якій акустична модель будувалася 
лише на базі злитого мовлення, в даній розглядалася також модель фонем, побудована 
як на злитому мовленні, так і на ізольованих словах. Це зроблено з метою покращення 
розпізнавання для «Частотної» КВ, яка давала найгірші результати з обраних КВ. 

У табл. І представлені результати фонемної помилки розпізнавання при викорис- 
танні різних акустичних моделей. За результатами, наведеними в табл. 1, видно, що 
застосування акустичної база НВ ізольованих слів (ІС) на додачу до НВ злитого мов- 
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лення (ЗМ) приводить до зменшення фонемної помилки. Це можна пояснити тим, 
що акустична база ІС збільшує кількість реалізацій кожної фонеми. Також наявність 
коротких синтагм (що характерно для природного людського мовлення) сприяє покра- 
щенню результатів розпізнавання. 


Таблиця 1 - Показники фонемної помилки розпізнавання - РЕК (Уб) для КВ 
злитого мовлення на основі різних мовленнєвих образів, з використанням різних 
акустичних моделей (злитого мовлення та ізольованих слів) інструментарієм НТК 


Склад, ділений 


Фонема Відкритий скла 
Назва М о і за правилами 
ОН ОРИТОНОН складоподілу 
вибірки 


акустична модель, що використовувалась 


«Випадкова» КВ 21,34 
«Випадкова» КВ 18,36 
(без наголосу) 


«Частотна» КВ 37,15 23,22 - 22,33 


«Частотна» КВ 13,11 
(без наголосу) 
КВ «Вікіпедія» 29,35 
КВ «Вікіпедія» 24,72 24.52 28,81 22,02 21,00 22,38 
(без наголосу) 


Для кожної з 57 фонем української мови і двох фонем-пауз отримані моделі, які ма- 
ють кожна три стани та від 4 до 36 сумішей нормальних законів залежно від частотності. 

Акустичні моделі для розпізнавання будувалися, враховуючи наголошені голосні. 
На письмі ж наголос зазвичай опускається. Виходячи з цих міркувань наголос не вра- 
ховувався, що дало значно меншу оцінку РЕК. А чи вплине на надійність розпізнавання, 
якщо в акустичній моделі не враховувати наголошеність голосних? Щоб дослідити це, 
була створена акустична модель, яка прирівнює наголошені та ненаголошені відповідні 
голосні: ІН до і, а- до а, ок до 0, и. до и, е- до е, у- до у. Також, щоб врахувати 
специфіку українського мовлення, а саме редукцію ненаголошених е, и до и", е" та 
навпаки, була створена акустична модель, в якій залишилися лише дві наголошені 
голосніеч- та и. 


Компенсування невідповідності шкали акустичної 
та лінгвістичної складових моделі розпізнавання 


Декодер намагається знайти послідовність слів або їх компонент 4; 7 4,54, 
які найбільш правдоподібно генерують послідовність векторів, що спостерігаються 
Уго З Уу»-» У ;,» ВИХОДЯЧИ З інтегральної міри схожості: 


4 - аг тах Поз рСУ | Ф)-- (о Іов (Р(Ф)) - В 4) 


де а та Б - коефіцієнти, які компенсують невідповідності шкали акустичної 
моделі (АМ) та лінгвістичної моделі (ЛМ), які є компонентами математичної моделі 
автоматичного розпізнавання мовленнєвого сигналу. Тому на першому етапі прово- 
дилися експерименти з ціллю емпірично підібрати параметри а та В, рекомендований 
діапазон яких складає 0 - 20 та 0 - (-20) відповідно (3, Щ31. 


«Штучний інтелект» 372012 121 


Васильєва Н.Б. 


зв 


При оцінці надійності використовувались показники фонемної помилки (англій- 
ською, РЕК - Рлопете Еугог Каїте): 
95 РЕК - 10090 - ою 
та фонемної некоректності (РІК -- Ряопете Псотгестез55 Кате): 
96 РІК -- 10090 -- ху 0ова з 


де Н - кількість правильно розпізнаних під-слівних елементів; 
І - кількість помилково вставлених під-слівних елементів; 
М - загальна кількість промовлених під-слівних елементів. 

Проводилися експериментальні дослідження корегування шкали невідповідності 
АМ та ЛМ для слів 1 їх компонентів. 

Дослідження невідповідності шкали АМ і ЛМ для під-слівних елементів. 
На рис. 2 - 7 проілюстровані показники У РЕК та Уь РІК фонемного розпізнавання 
згаданих вище КВ при змінах коефіцієнта В в п'яти точках (0, -5, - 10, - 15, -20) для 
а, що дорівнює 0, 5 та 10. 

Зменшення РЕК відбувається головним чином за рахунок скорочення кількості 
вставлених під-слівних елементів, яких не має бути. Ріст некоректності обумовлений 
зменшенням правильно розпізнаних елементів. З рис. 2 - 7 слідує, що найменша 
фонемна помилка досягається при значеннях параметрів а - 5 та В - -5. Показник 
коректності РІК дав можливість визначити, що надійність виросла за рахунок скоро- 
чення числа вставок. 


50 4 34 


45 32 ніавююь з РУЗБЄ ОЛРИОЕНЮ 


30 


40 


28 ланнифншии ОО 5 
35 --ф -- 010 
26 
б 24 
25 т т т т 22 т т т т 
во 8-5 в-10 В-15 в-г0 во В-5 в-10 В-15 в-г0 
Рисунок 2 - Показники РЕК Рисунок 3 - Показники РІК 
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Рисунок 6 - Показники РЕК Рисунок 7 - Показники РІК 
розпізнавання (9) для злитого розпізнавання (У) для злитого 
мовлення на КВ «Вікіпедія» мовлення на КВ «Вікіпедія» 


Дослідження невідповідності шкали АМ і ЛМ для слів. Проводилися експе- 
риментальні дослідження послівного розпізнавання злитого мовлення із застосуванням 
ЛМ, На рис. 8 - 10 наведені результати послівного розпізнавання злитого мовлення 
для різних КВ при змінах коефіцієнта В в чотирьох точках (0, -1, -2, - 5) для а, що 
дорівнює 4, 7 та 15. Словник лінгвістичної моделі розпізнавання складав 100) тис. слів. 
При цьому слів, яких немає в словнику (Оиї! о? Уосафиіату - ООУ), було 2,396 для 
«Частотної» КВ, 9,69, для «Випадкової» КВ та 7905 для КВ «Вікіпедія». Якщо враху- 
вати попередні дослідження (табл. 1), то очевидно для навчання АМ потрібно брати 
обидві навчальні вибірки акустичних баз: злитого мовлення та ізольованих слів. На 
рис. 3 - 10 вони позначені як ТС 51, позначення ТС 5, (ЕУ) має акустична модель, 
побудована на НВ злитого мовлення та ізольованих слів, які розрізняють наголоше- 
ність голосних лише для и та е; позначення ТС 51, Респає має акустична модель, 
побудована так само, як 1 попередні, але не розрізняє наголошеність голосних. 
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Рисунок 8 - Показники помилки надійності послівного розпізнавання (97) 
для злитого мовлення на «Частотній» КВ 


Показник послівної некоректності так само, як і для фонемного розпізнавання, 
зростає при збільшенні штрафів за рахунок випадання елементів, які мають бути. Як 
видно з рис. 8 - 10, коефіцієнт а. - 15 та В - -2 з акустичною моделлю, яка враховує всі 
наголошені голосні, поводить себе краще, ніж інші, для всіх КВ. Графіки ТС 51, Бегпає 
а-7та ТС 5І, Беспає а - 15 (рис. 8 - 10) мають майже однакові траєкторії, які на 
рисунках зливаються в одну. 
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Рисунок 9 - Показники помилки надійності послівного розпізнавання (9/0) 
для злитого мовлення на «Випадковій» КВ 
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Рисунок 10 - Показники помилки надійності послівного розпізнавання (97) 
для злитого мовлення на КВ «Вікіпедія» 


Висновки 


Як і планувалося в попередній роботі (1|, для покращення розпізнавання злитого 
мовлення були задіяні обидві акустичні НВ: злитого мовлення та ізольованих слів. Це 
значно покращило результати надійності розпізнавання, особливо на «Частотній» КВ. 

У наведених експериментах допускалася вільна граматика слідування під-слівних 
елементів, а для слів використано статистичні лінгвістичну модель. 

Велику увагу в даній роботі було приділено дослідженню та підбору коефіцієнтів 
а та В, які компенсують невідповідності шкали акустичної та лінгвістичної складової 
моделі розпізнавання. З однієї сторони, збільшення значення коефіцієнтів впливає на 
кількість розпізнаних під-слівних елементів, зменшуючи коректність розпізнавання, 
а з іншої сторони - на правильність розпізнаних елементів, збільшуючи надійність. 

Планується застосувати статистичні лінгвістичні моделі для під-слівних елементів, 
що має привести до зменшення помилки розпізнавання. Залишається недослідженим 
вплив багатьох параметрів декодерів на надійність та швидкість. Зокрема, будуть роз- 
роблятися підходи до зменшення алфавіту складів, що має прискорити розпізнавання. 
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